智能论文笔记

Cautious Planning with Incremental Symbolic Perception: Designing Verified Reactive Driving Maneuvers

Disha Kamale , Sofie Haesaert , Cristian-Ioan Vasile

分类：机器人

2022-09-20

这项工作提出了利用对机器人周围环境的逐步改善的象征感知知识的一步，以证明适用于自动驾驶问题的正确反应性控制合成。结合了运动控制和信息收集的抽象模型，我们表明假设保证规范（线性时间逻辑的子类）可用于定义和解决谨慎计划的流量规则。我们提出了一种新颖的表示，称为符号改进树，以捕获有关环境的增量知识，并体现了各种符号感知输入之间的关系。利用增量知识来合成机器人的验证反应性计划。案例研究表明，即使在部分遮挡的环境中，拟议方法在合成控制输入方面的疗效。

translated by 谷歌翻译

Multi hash embeddings in spaCy

Lester James Miranda , Ákos Kádár , Adriane Boyd , Sofie Van Landeghem , Anders Søgaard , Matthew Honnibal

分类：自然语言处理

2022-12-19

The distributed representation of symbols is one of the key technologies in machine learning systems today, playing a pivotal role in modern natural language processing. Traditional word embeddings associate a separate vector with each word. While this approach is simple and leads to good performance, it requires a lot of memory for representing a large vocabulary. To reduce the memory footprint, the default embedding layer in spaCy is a hash embeddings layer. It is a stochastic approximation of traditional embeddings that provides unique vectors for a large number of words without explicitly storing a separate vector for each of them. To be able to compute meaningful representations for both known and unknown words, hash embeddings represent each word as a summary of the normalized word form, subword information and word shape. Together, these features produce a multi-embedding of a word. In this technical report we lay out a bit of history and introduce the embedding methods in spaCy in detail. Second, we critically evaluate the hash embedding architecture with multi-embeddings on Named Entity Recognition datasets from a variety of domains and languages. The experiments validate most key design choices behind spaCy's embedders, but we also uncover a few surprising results.

translated by 谷歌翻译

Perfectly predicting ICU length of stay: too good to be true

Sandeep Ramachandra , Gilles Vandewiele , David Vander Mijnsbrugge , Femke Ongenae , Sofie Van Hoecke

分类：机器学习

2022-11-10

A paper of Alsinglawi et al was recently accepted and published in Scientific Reports. In this paper, the authors aim to predict length of stay (LOS), discretized into either long (> 7 days) or short stays (< 7 days), of lung cancer patients in an ICU department using various machine learning techniques. The authors claim to achieve perfect results with an Area Under the Receiver Operating Characteristic curve (AUROC) of 100% with a Random Forest (RF) classifier with ADASYN class balancing over sampling technique, which if accurate could have significant implications for hospital management. However, we have identified several methodological flaws within the manuscript which cause the results to be overly optimistic and would have serious consequences if used in a clinical practice. Moreover, the reporting of the methodology is unclear and many important details are missing from the manuscript, which makes reproduction extremely difficult. We highlight the effect these oversights have had on the result and provide a more believable result of 88.91% AUROC when these oversights are corrected.

translated by 谷歌翻译

Reducing safe UAV separation distances with U2U communication and new Remote ID formats

Evgenii Vinogradov , Sofie Pollin

分类：机器人

2022-09-27

随着空域中无人驾驶汽车（无人机）的数量的增加，确保飞机不会碰撞对进一步的技术开发至关重要。在这项工作中，我们提出了一个新的无人机，在空中碰撞附近（UNMAC）安全量i）机身大小，ii）定位精度，iii）无人机速度/速度和iv）无线技术功能。基于UNMAC，我们证明可以通过使用UAV-TO-UAV（U2U）通信来降低UAV间的分离距离，而安全水平保持不变。此外，这项工作表明，下一代远程ID消息应包含其他信息（即，估计的本地化错误，对于某些应用程序，移动方向）。由于远程ID的频繁广播可以进一步降低分离距离，因此我们确定了5G NR Sidelink，Wi-Fi和蓝牙为U2U通信的合适候选者。

translated by 谷歌翻译

The Dice loss in the context of missing or empty labels: Introducing $Φ$ and $ε$

Sofie Tilborghs , Jeroen Bertels , David Robben , Dirk Vandermeulen , Frederik Maes

分类：计算机视觉 | 人工智能 | 机器学习

2022-07-19

尽管骰子损失是医学图像分割中的主要损失函数之一，但大多数研究都忽略了其导数，即使用梯度下降时优化的真实电动机。在本文中，我们强调了在缺少或空的标签存在下骰子丢失的特殊作用。首先，我们制定一个理论基础，对骰子丢失及其导数进行了一般描述。事实证明，减少尺寸$ \ phi $和平滑项$ \ epsilon $的选择是无处不在的，并且极大地影响了其行为。我们找到并提出了$ \ phi $和$ \ epsilon $的启发式组合，它们在细分设置中使用，带有缺失或空标签。其次，我们使用两个公开可用的数据集在二进制和多类分段设置中验证这些发现。我们确认，$ \ phi $和$ \ epsilon $的选择确实是关键的。选择了$ \ phi $，因此减少的单个元素（和类）元素以及可忽略不计的$ \ epsilon $进行，骰子损失与缺失的标签自然交易，并且与最近缺少标签的最新适应性相似。选择$ \ phi $，以使减少量发生在多个批处理元素上，或以$ \ epsilon $的启发式值进行，骰子损失正确处理空标签。我们认为，这项工作强调了一些基本观点，并希望它鼓励研究人员更好地描述他们对未来工作中骰子损失的确切实施。

translated by 谷歌翻译

Do Not Sleep on Linear Models: Simple and Interpretable Techniques Outperform Deep Learning for Sleep Scoring

Jeroen Van Der Donckt , Jonas Van Der Donckt , Emiel Deprost , Michael Rademaker , Gilles Vandewiele , Sofie Van Hoecke

分类： (统计)机器学习 | 人工智能 | 机器学习

2022-07-15

在过去的几年中，自动睡眠评分的研究主要集中在开发日益复杂的深度学习体系结构上。但是，最近，这些方法仅实现了边际改进，通常以需要更多数据和更昂贵的培训程序为代价。尽管所有这些努力及其令人满意的表现，但在临床背景下，自动睡眠期临时解决方案并未被广泛采用。我们认为，由于很难训练，部署和繁殖，大多数对睡眠评分的深度学习解决方案在现实世界中的适用性受到限制。此外，这些解决方案缺乏可解释性和透明度，这通常是提高采用率的关键。在这项工作中，我们使用经典的机器学习来重新审视睡眠阶段分类的问题。结果表明，通过传统的机器学习管道可以实现最新的性能，该管道包括预处理，功能提取和简单的机器学习模型。特别是，我们分析了线性模型和非线性（梯度提升）模型的性能。我们的方法超过了两个公共数据集上的最新方法（使用相同的数据）：Sleep--EDF SC-20（MF1 0.810）和Sleep-eDF ST（MF1 0.795），同时在Sleep-eDF上取得了竞争成果SC-78（MF1 0.775）和质量SS3（MF1 0.817）。我们表明，对于睡眠阶段评分任务，工程特征向量的表现力与深度学习模型的内部学表现相当。该观察结果为临床采用打开了大门，因为代表性功能向量允许利用传统机器学习模型的可解释性和成功记录。

translated by 谷歌翻译

Plotly-Resampler: Effective Visual Analytics for Large Time Series

Jonas Van Der Donckt , Jeroen Van Der Donckt , Emiel Deprost , Sofie Van Hoecke

分类：机器学习

2022-06-17

视觉分析可以说是熟悉数据的最重要步骤。时间序列尤其如此，因为此数据类型很难描述，并且在使用例如摘要统计信息时无法完全理解。要实现有效的时间序列可视化，必须满足四个要求；工具应为（1）交互式，（2）可扩展到数百万个数据点，（3）在常规数据科学环境中可集成，以及（4）高度可配置。我们观察到，开源Python可视化工具包在大多数视觉分析任务中赋予了数据科学家的能力，但是缺乏可扩展性和交互性的组合来实现有效的时间序列可视化。为了促进这些要求，我们创建了Plotly-Resampler，这是一个开源Python库。 Plotly-resampler是Plotly的Python绑定的附加组件，通过汇总基础数据，根据当前的图形视图来增强线图可伸缩性。绘制构建的绘制是活跃的，因为工具的反应性在定性上影响分析师在视觉探索和分析数据的方式。基准任务强调了我们的工具包在样本数和时间序列方面如何比替代方案更好。此外，Plotly-Resmpler的灵活数据聚合功能为研究新型聚合技术铺平了道路。 Plotly-Resampler的集成性以及其可配置性，便利性和高可扩展性，可以有效地分析您日常的Python环境中的高频数据。

translated by 谷歌翻译

Powershap: A Power-full Shapley Feature Selection Method

Jarne Verhaeghe , Jeroen Van Der Donckt , Femke Ongenae , Sofie Van Hoecke

分类：机器学习 | (统计)机器学习

2022-06-16

特征选择是开发强大而强大的机器学习模型的关键步骤。特征选择技术可以分为两类：过滤器和包装器方法。尽管包装器方法通常会产生强大的预测性能，但它们具有很大的计算复杂性，因此需要大量时间完成，尤其是在处理高维度集合时。或者，滤波器方法的速度要快得多，但是遭受了其他几个缺点，例如（i）需要阈值值，（ii）不考虑特征之间的相互关系，并且（iii）忽略与模型的特征相互作用。为此，我们提出了一种新颖的包装器特征选择方法PowerShap，该方法将统计假设测试和功率计算与Shapley值结合使用，以进行快速和直观的特征选择。 PowerShap建立在核心假设的基础上：与已知的随机功能相比，信息功能将对预测产生更大的影响。基准和仿真表明，PowerShap的表现优于其他过滤器方法，具有与包装器方法相同的预测性能，同时显着更快，甚至达到执行时间的一半或三分之一。因此，PowerShap提供了一种竞争和快速算法，可以在不同域中的各种模型使用。此外，PowerShap是作为插件和开源的Sklearn组件实现的，可以轻松地集成在传统的数据科学管道中。通过提供自动模式，可以自动调整PowerShap算法的超参数，从而进一步增强用户体验，从而可以使用该算法而无需任何配置。

translated by 谷歌翻译

tsflex: flexible time series processing & feature extraction

Jonas Van Der Donckt , Jeroen Van Der Donckt , Emiel Deprost , Sofie Van Hoecke

分类：机器学习 | (统计)机器学习

2021-11-24

时间序列加工和特征提取是传统机器学习管道中的关键和时间密集步骤。现有软件包的实际适用性受到限制，因为它们无法应对不规则采样和异步数据。因此，我们呈现$ \ texttt {tsflex} $，用于处理和特征提取的域无关，灵活和序列的第一个Python工具包，其能够处理具有未对准测量的不规则采样的序列。此工具包是首先序列，因为（1）基于序列的参数，用于STRIVELD-WONETS功能提取，并且（2）通过所有支持的操作维护序列索引。 $ \ texttt {tsflex} $ fasel fasel fasel，因为它本地支持（1）多变量时间序列，（2）多个窗口级别配置，（3）与其他包的处理和功能功能集成，而（4）没有假设关于数据采样率规律性和同步。来自此包的其他功能是多处理，深入执行时间记录，支持基于分类和时间的数据，块序列和嵌入式序列化。 $ \ TextTT {TSFlex} $是开发的，以实现快速和内存高效的时间序列处理和特征提取。结果表明，$ \ texttt {tsflex} $比类似的包更灵活，同时在运行时和内存使用情况下表现出这些工具包。

translated by 谷歌翻译

FINN.no Slates Dataset: A new Sequential Dataset Logging Interactions, allViewed Items and Click Responses/No-Click for Recommender Systems Research

Simen Eide , Arnoldo Frigessi , Helge Jenssen , David S. Leslie , Joakim Rishaug , Sofie Verrewaere

分类：机器学习 | (统计)机器学习

2021-11-05

我们提出了一款新颖的推荐系统数据集，记录了用户和在线市场之间的顺序交互。用户按照推荐和搜索结果依次呈现，以来自市场的排名列表中的排名列表的形式。 DataSet包括每轮的呈现的Slate，用户是否单击了这些项目中的任何一个，用户单击了哪些项目。虽然推荐系统中的曝光数据的使用日益增长，但我们知识没有开放的大型推荐系统数据集，其中包括向每个交互呈现给用户的项目的板岩。因此，大多数推荐系统的文章都不使用此曝光信息。相反，所提出的模型仅取决于用户的点击响应，并且假设用户在每个步骤中公开到项目宇宙中的所有项目，通常称为均匀候选采样。这是一个不完整的假设，因为它考虑了用户可能没有暴露的项目。这样的方式可能被认为是不正确的用户不正确的。考虑到实际示出的板岩允许模型使用更自然的可能性，基于给出曝光集的曝光集，如匪盗和强化学习文献中的普遍存在。 \ Cite {Eide2021dynamicsampling}显示基于统一候选采样（和类似假设）的似然是隐式假设该平台仅向用户显示最相关的项目。这使得推荐系统隐含地加强反馈循环，并将其偏向于用户到用户的预先暴露的物品。

translated by 谷歌翻译